from parse_result import LocalPageParser,DirMaker,KeywordParser
def test_PageParser():
	strHtml=r'''
	<html>
	<title>hello</title><body><a href="data">xx</a></body>
	</html>
	'''
	urls=['http://www.baidu.com/data','http://www.baidu.com/a/b/data']
	p=PageParser()
	p.set_fetched_urls(urls)
	p.parse('http://www.baidu.com/index.html',strHtml)
	print p.get_html()
	p.reset()
	p.parse('http://www.baidu.com/a/b/index.html',strHtml)
	print p.get_html()
	p.reset()
	p.parse('http://www.baidu.com',strHtml)
	print p.get_html()
	p.reset()
	p.parse('http://www.baidu.com/',strHtml)
	print p.get_html()
def test_DirMaker():
	DirMaker.make('a/b/c')
	DirMaker.make('a')
	print DirMaker.DIRS
def test_KeywordParser():
	p=KeywordParser()
	p.set_keyword_regx('<td class="category-table-td"><a href=\s*"([\w:\./]+)"\s*>(\w+)</a>',KeywordParser.Type_UrlKeyword)
	f=open('save.txt','rb')
	strHtml=f.read()
	f.close()
	#strHtml=strHtml.replace('\n','')
	p.parse(strHtml)

if __name__=='__main__':
	#test_DirMaker()
	test_KeywordParser()
